样本量计算教程:咋利用ROC曲线下面积来计算?
一、问题与数据
最近小宋医生在撰写一项项目书,研究设计是诊断试验,研究目的是探讨在使用呼吸机的病人中,与金标准相比,A指数预测撤机(呼吸机)失败的准确性。但是小宋医生不知道样本量怎么计算,所以跑来找小咖帮忙。
小宋医生希望该研究的ROC曲线下面积的最小值为0.80。假设α=0.05,β=0.10,预计10%的失访率,本研究拟定撤机失败的病人和撤机成功的病人数目相等,则该研究需要多大的样本量呢?
二、对问题的分析
小宋医生的研究为诊断试验,要使用ROC曲线下面积计算样本量,首先应当根据研究目的设定最小的ROC曲线下面积。然后拟定检验水准α和检验效能1-β,以及所需要的阴性组与阳性组的比例,即撤机失败的病人和撤机成功的病人之比。
根据上面的叙述得知ROC曲线下面积最少0.80,α=0.05,β=0.10,阴性组与阳性组的比例为1。
下面我们来看一下如何用Medcalc软件实现样本量计算。
三、Medcalc操作方法
1. 选择Sampling→Area under ROC curve…
2. Type I error (Alpha, Significance)中填入0.05;Type II error (Beta, 1-Power)中填入0.10;Area under ROC curve中填入最小可接受的ROC曲线下面积0.80;Null hypothesis value指零假设下即A指数无诊断价值时的ROC曲线下面积0.5(为什么ROC曲线下面积是0.5时没有诊断价值,请参考之前发过的“了解ROC曲线下面积,有这篇文章就够了”);Ratio of sample sizes in negative/positive groups:阴性组与阳性组的比值为1。点击Calculate。
计算结果见下图,在计算结果的表中找到本研究α=0.05和β=0.10对应的值,为17+17。
有不清楚的地方,请记得点击上图左下角的问号,查看帮助文件。
下面我们来依次解释各个概念:
Type I error(I类错误):犯I类错误的概率,也就是当零假设是真实的,却拒绝零假设的概率;
Type II error(II类错误):犯II类错误的概率,也就是当零假设是不真实的,却接受零假设的概率;
我们用一个生动形象的例子来详细讲一下:
零假设(H0):病人没有怀孕。
备择假设(H1):病人怀孕。
在下图中,我们可以看到,左侧的男性病人不可能怀孕(当然是指自然状态下),但医生却认为病人怀孕,这就是当零假设是真实的却拒绝了零假设,犯了I类错误;而右侧的女性病人,可以看到其怀孕,但是医生却认为病人没有怀孕,这就是零假设不成立却接受了零假设,犯了II类错误。是不是很形象呢?如果还是不理解,请参考“统计方法套路深,细说I类错误和II类错误!”。
(图片来源:flowingdata.com)
Area under ROC curve(ROC曲线下面积):这里指假设的ROC曲线下面积,即研究期望发现的ROC曲线下面积。
Ratio of sample sizes in negative / positive groups(阴性组样本量与阳性组的比值):即需要的阴性组与阳性组例数的比值。本研究需要两组有相同的例数,所以我们这里键入1。
四、结果解读
根据上面的结果,上述研究的样本量阴性组需要17例,阳性组需要17例,共计34例病人可以满足本研究所需要的样本量。假设有10%的失访率,则需要34/(1-10%)≈38(例)。
五、撰写结论
本研究的研究设计为诊断试验。假设呼吸衰竭病人撤机失败和撤机成功的比例为1:1,期望的ROC曲线下面积最少达到0.80,假设α=0.05,β=0.10,需要至少17例撤机失败,17例撤机成功的病人。假设有10%的失访率,共需要38例研究对象。
精彩回顾
关注医咖会,一起学习统计学!
有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进统计讨论群和其他小伙伴们一起交流学习;或者点击公众号下方自定义菜单的“统计咨询”,提出你遇到的统计难题。
点击左下角“阅读原文”,看看既往小伙伴们都提出了哪些问题,以及该如何去解决。